长尾的多标签视觉识别(LTML)任务是由于标签共发生和不平衡的数据分布,这是一项极具挑战性的任务。在这项工作中,我们为LTML提出了一个统一的框架,即促使特定于班级的嵌入损失(LMPT)进行调整,从而通过结合文本和im im Im operational数据来捕获语义功能相互作用,并在头部和尾部同步改进型号。具体来说,LMPT通过班级感知的软边距和重新投资介绍了嵌入式损失函数,以学习特定的班级上下文,并带有文本描述(字幕)的好处,这可以帮助建立类之间的语义关系,尤其是在头和尾部之间。fur-hoverore考虑到类失样的类别,分配平衡的损失被用作分类损失函数,以进一步提高尾部类别的性能而不会损害头部类别。在VOC-LT和可可-LT数据集上进行了广泛的实验,这表明我们的方法显着超过了先前的最新方法,而LTML中的零拍夹。我们的代码在https://github.com/richard-peng-xia/lmpt上完全公开。
主要关键词
![arxiv:2305.04536v2 [CS.CV] 2024年6月18日PDF文件第1页](/bimg/b/b0a3ca7f0cc4ec0f549eb685929051dda5e52246.webp)
![arxiv:2305.04536v2 [CS.CV] 2024年6月18日PDF文件第2页](/bimg/2/250878e07ab9baad9c6fb9308b21f591e0670f59.webp)
![arxiv:2305.04536v2 [CS.CV] 2024年6月18日PDF文件第3页](/bimg/4/40cc871463682dc360620fa80441ad78b245e3c0.webp)
![arxiv:2305.04536v2 [CS.CV] 2024年6月18日PDF文件第4页](/bimg/4/4abb5a0e07d0de8025ebd734a6f52c902499f2ee.webp)
![arxiv:2305.04536v2 [CS.CV] 2024年6月18日PDF文件第5页](/bimg/7/7f36d53823b29ade61762250f010cca28dbaaac4.webp)
